跳到主要内容

案例9.4 视频教程

9.4.mov (194.66MB)题目:试编程实现k均值算法,设置三组不同的k值、三组不同初始中心点,在西瓜数据集4.0上进行试验比较,并讨论什么样的初始中心有利于取得好结果。

步骤1:在“项目模板”中找到周志华习题,打开第九章聚类习题案例9.4,创建模板。
步骤2:在“CSV上传模块”上传data数据,一般为csv格式。这里就是上传需要输入的样本集D。
步骤3:在全部组件列表搜索“K均值聚类”模块,拖到操作界面内,
这个就是k-means算法的实现,k-means算法是给定样本集D,然后通过迭代优化针对聚类所得簇划分C最小化平方误差E,这是一种基于划分的聚类算法,计算量大,但很容易发现数据库中的球状簇。
“k均值聚类”模块左端需要输入训练数据,通过k-means算法会输出数据和模型。
在“参数设置”里把“N clusters”设置好聚类簇数k,其他参数就不用动了。在“字段设置”中设置“特征字段”“density,sugercontent”,在类别字段中设置“cluster”。“执行调优”选项卡中不用填。
然后把CSV上传模块和K均值聚类模块连接,这里可以点击运行查看下结果。
步骤4:在全部组件列表搜索“模型预测”模块,连接“K均值聚类”和“模型预测”。
滚轮放大视图可以看到“模型预测”组件左边是接收2个输入的,这个模板里一个是我们上传的需要预测的数据,另一个是经过k-means算法训练的模型。通过这个模块直接可以查看预测结果。预测结果为csv格式。在“公共组件”的“算法设计”选项里,找到数据可视化,可以实现预测结果的可视化。
步骤5:在全部组件列表搜索“VS Code - Python”,这里我们使用Python来实现结局可视化,用散点图来表示最终结果。点击“VS Code Python”,在“参数设置”里勾选“编辑”,然后点击运行该节点,然后在“概览”中点击操作“编辑 VS Code”,进入编辑页面,然后编写主函数及matplot。
步骤6:在编写完VS Code后别忘了将“参数设置”里的“编辑”勾选掉。然后点击“CSV上传”,从此处运行开始下载项目和启动项目。
步骤7:运行完程序,可以再“聚类可视化”模块中查看结果。